聚类分析能够挖掘出数据间隐藏的内在联系并对数据进行多指标划分,从而促进个性化和精细化运营。然而,数据孤岛造成的数据碎片化和孤立化严重影响了聚类分析的应用效果。为了解决数据孤岛问题的同时保护相关数据隐私,提出本地均分扰动联邦K-means算法(ELFedKmeans)。针对横向联邦学习模式,设计了一种基于网格的初始簇心选择方法和一种隐私预算分配方案。在ELFedKmeans算法中,各站点联合协商随机种子,以较小的通信代价生成相同的随机噪声,保护了本地数据的隐私。通过理论分析证明了该算法满足差分隐私保护,并将该算法与本地差分隐私K-means(LDPKmeans)算法和混合型隐私保护K-means (HPKmeans)算法在不同的数据集上进行了对比实验分析。实验结果表明,随着隐私预算不断增大,三个算法的F-measure值均逐渐升高;误差平方和(SSE)均逐渐减小。从整体上看,ELFedKmeans算法的F-measure值比LDPKmeans算法和HPKmeans算法分别高了1.794 5%~57.066 3%和21.245 2%~132.048 8%;ELFedKmeans算法的Log(SSE)值比LDPKmeans算法和HPKmeans算法分别减少了1.204 2%~12.894 6%和5.617 5%~27.575 2%。在相同的隐私预算下,ELFedKmeans算法在聚类质量和可用性指标上优于对比算法。
针对传统向量空间模型(TVSM)生成的向量维度高,计算文档与检索关键词相关度的向量点积运算耗时长的问题,提出一种面向云环境密文排序检索的字典划分向量空间模型(DPVSM)。首先给出DPVSM的具体定义,并证明了DPVSM中检索关键词与文档的相关度得分与TVSM中的相关度得分完全相等;然后,采用等长字典划分方法,提出加密向量生成算法和文档与检索关键词相关度得分计算算法。实验结果表明,DPVSM文档向量的空间开销远少于TVSM,且文档数量越多开销降低越多;此外,DPVSM的检索向量的空间开销以及相关度得分计算的耗时也远低于TVSM。显然,DPVSM在生成向量的空间效率和相关度得分计算的时间效率上均优于TVSM。
针对隐私数据易受数据机密性、完整性和新鲜性攻击这一问题,提出了一种基于同态Hash函数的无线传感器网络(WSN)数据融合隐私保护算法——HPDA算法。利用同态加密算法保证了融合数据的机密性,通过构建同态Hash函数进行数据的完整性和新鲜性检测,通过改进的ID传输机制减少系统的通信开销。理论分析和实验仿真结果表明,HPDA算法在无线传感器网络数据融合过程中具有良好的数据机密性、完整性和新鲜性保护,且具有较低的通信开销。